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Abstract of DEI 0056681 

A Meta search engine server (4) acts as an Interface between a user host computer (2) and multiple 
primary search engine (6) servers. Instead of sending a separate search query to ail servers for the 
primary search engines (PSE), the user host computer directs its Inquiry only once at the Meta search 
engine server that adapts the inquiry to the special requirements of the PSEs and transmits the special 
search queries to the individual servers of the PSEs. Independent claims are also included for (1) a 
computer system with a Meta search engine with an interface to a primary search engine (2) a 
computer program product with program code for running the method of the present invention. 
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Prufungsantrag gem. § 44 PatG ist gestellt 

@ Verfahren, Computersystem und Computerprogramm-Produkt zum Konfigurieren einer Meta-Suchmaschine 

@ Die Erfindung ist auf ein von einer Meta-Suchmaschine 
durchgefuhrtes Verfahren gerichtet. In dem Verfahren 
wird eine Suchantwort, die in einer Suchantwortdarstel- 
lung von der Primarsuchmaschine geliefert wird, von der 
Meta-Suchmaschine verarbeitet. Das Verfahren umfaRt, 
da(i die Meta-Suchmaschine sich selbst an eine neue 
Suchantwortdarstellung anpafSt. Die Erfindung ist auch 
auf ein von einem Computersystem durchgefuhrtes Ver- 
fahren gerichtet, um eine Schnittstelle zu mindestens ei- 
ner Primarsuchmaschine zu konfigurieren. Die Schnitt- 
stelle hat die Funktion, Suchergebnisse aus einer Such- 
antwort einer Primarsuchmaschine in einer Suchantwort- 
darstellung zu extrahieren. Das Verfahren umfaf^t das au- 
tomatische Anpassen der Schnittstelle an eine neue 
Suchantwortdarstellung. Die Erfindung ist auch auf ein 

• entsprechendes Computersystem und ein entsprechen- 

, des Computerprogramm-Produkt gerichtet. 
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Beschreibung 

[0001] Die vorliegende Erfindung belrifft allgemei n Meta- 
Suchmaschinen, und genauer Verfahien, ein Computersy- 
stem und ein Computerprogramm-Prcxlukt zum Konfigurie- 5 
ren einer Meta-Suchmaschine, so daB Suchantworten von 
Primarsuchmaschinen verarbeitet werden. 
[0002] Die Menge an Informationen, die iiber Netzwerke 
und Online-Datenbanken zur Verfugung steht, hat rasch zu- 
genommen und nimmt weiter zu. Besonders der weit ver- lO 
breitetste Dienst im Internet, das World Wide Web (WWW), 
hat in den letzten 5 Jahren einen explosionsartigen Wachs- 
tum erlebt. Andererseits wird das Ausfindigmachen von In- 
formationen im Internet immer schwieriger. Getrieben 
durch seine offene und unkontrollierte Organisationsstruk- 15 
tur, werden die Informationen unstrukturiert gespeichert und 
machen es so dem Benutzer schwer, an Informationen zu ei- 
nem speziellen Thema zu gelangen. Es gibt insbesondere 
kein zentrales Archiv, das als Verweis zu Informationen im 
Internet dient. Des weiteren kann keine Filterung oder ir- 20 
gendeine andere Kontrolle der Informationen angewandt 
werden, um die Zuganglichkeit der im World Wide Web ver- 
fiigbaren Dokumente zu verbessem. Sogar innerhalb einer 
einzigen Web-Site ist es fur den Benutzer oft schwer, nur 
durch Navigieren entlang der bereitgestellten Hyperlinks 25 
(Verweise zu WWW-Dokumenten), die gewiinschten Infor- 
mationen zu finden. Dariiber hinaus bieten inmier mehr Fir- 
men ihren Kunden und Angestellten einen zusStzIichen Ser- 
vice in Form von umfangreichen Informationen iiber ihre . 
Produkte und Diensdeistungen. Da diese Informationsdien- 30 
ste gewohnlich sowohl auf das Internet als auch auf firmen- 
inteme Netzwerke (Intranet), die auf Intemettechnologien 
basieren, zugreifen, ist ihre Struktur der des Internets ahn- 
lich. AuBerdem hat die Menge an Informationen, die durch 
diese Dienste zur Verfugung gestellt wird, fur Kunden und 35 
AngesteLlte eine handhabe GroBe uberschritten. Folglich 
heirscht eine starke Nachfrage nach Werkzeugen, die die In- 
formadonsbeschaffung im Internet, Intranet oder auf gioBen 
Web-Sites erleichtert Werkzeuge, die in der Lage sind, im 
Internet oder Intranet nach spezifischen Informationen zu 40 
suchen, werden Suchmaschinen genannt. 
[0003] Suchmaschinen versetzen den Benutzer in die 
Lage, in Webseiten nach spezifischen Stichworten zu su- 
chen. Sie basieren in der Regel auf suchfahigen Datenban- 
ken oder Archiven, in denen Querverweise zu Web-Sites, 45 
sogenannte Uniform Resource Locators (URL), abgelegt 
sind. Zusammen mit der URL werden die wichtigsten Site- 
Informationen gespeichert, d. h. Stichworte und Begriffe, 
die in dem entsprechenden Dokument enthalten sind, sowie 
eine kurze Beschreibung des Inhalts der Seite. Spezielle 50 
Programme, sogenannte "Spinnen" oder "Webroboter", die 
das Web laufend nach neuen Sites durchsuchen und Stich- 
worte identifizieien, helfen der Suchmaschine die Daten- 
bank zu eiganzen und zu aktualisieren. 

[0004] In den letzten Jahren haben sich eine Reihe von 55 
Suchmaschinen etabliert, von denen die gangisten unter 
www.altavista.com, www.lycos.com, www.excite.oom oder 
www.yahoo.com gefiinden werden konnen. Zusatzlich spe- 
zialisieren sich viele andere Suchmaschinen auf spezielle 
Felder, z. B. auf Patentsuche (www,patents.ibm.com), lo- €0 
kale Informationen (www.bigyellow.com). Software 
(www.tucows.com). Jobs (www.carreerbuilder.com) oder 
Musik (www.scour.net). Weitere Beispiele fur Suchmaschi- 
nen sind Intranetsuchmaschinen, die ihren Suchbereich auf 
ein internes Firmen-, Instituts-, oder UniversitStsnetz be- 65 
grenzen. 

[0005] Suchmaschinen stellen dem Benutzer iiber eine 
Webseite eine Benutzerschnittstelle zur Verfugung, die es 
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dem Benutzer erlaubt, Stichworte oder logische Verkniip- 
fiingen von Stichworten einzugeben. Zum Beispiel wiirde 
eine Suchanfrage, die eine logische UND-Verknupfung der 
Stichworte "Computer" und "Spiele" verwendet, alle in der 
Datenbank der befragten Suchmaschine enthaltenen Quer- 
verweise zu Web-Sites ergeben, die Informationen sowohl 
zu Computem als auch zu Spielen beinhalten. In der Regel 
werden die von einer Suchmaschine erhaltenen Eigebnisse 
einer Suchanfrage aufgelistet und im Browser des Benut- 
zers, geordnet nach der Relevanz der Dokumente, angezeigt, 
wobei jedes Listenelement die URL, die kurze Beschrei- 
bung des Inhalts und das Datum des Dokuments enthalt. 
[0006] Im aligemeinen wunscht sich ein Benutzer, meh- 
rere verschiedene Suchmaschinen zu benutzen, um die Ver- 
laBlichkeit der Suche zu erh5hen. Mit zunehmender Anzahl 
an Suchmaschinen wird er jedoch mit vielen verschiedenen 
Arten von Benutzerschnittstellen und Darstellungen der Su- 
chergebnisse konfrontiert. Da jede Suchmaschine ihre ei- 
gene individueUe Benutzerschnittstelle und Optionen zum 
Konfigurieren und Optimieren der Suche hat, muB der Be- 
nutzer lemen, mit den verschiedenen Benutzerschnittstellen 
umzugehen und sich die Unterschiede zu merken. Zum Bei- 
spiel variiert zwischen den verschiedenen Suchmaschinen 
die Syntax, um eine logische Verkniipfiing von Stichworten 
oder Stichworte, die aus mehreren getrennten Wortem be- 
stehen, einzugeben, oder die Art, wie GroB- und Klein- 
schreibung in einem Suchanfragetext interpretiert werden. 
[0007] Zusatzlich ist es schwierig, insbesondere fiir den 
unerfahrenen Benutzer, einen "Oberblick iiber bestehende 
Suchmaschinenanbieter zu bewahren und den besten fiir ein 
spezielles Interessengebiet auszuwahlen. Um sicherzustel- 
len, daB er die besten verfiigbaren Informationen im Netz 
bekommt, muB der Benutzer in der Regel mehrere Suchma- 
schinen konsultieren, dieselbe Suchanfrage in mehreren 
Web-Sites eingeben und dabei verschiedene Benutzer- 
schnittstellen und Konfigurationen verwenden, und schlieB- 
lich die Suchergebnisse der verschiedenen Suchmaschinen 
vergleichen, bewerten und ordnen. Firmeninteme Informati- 
onsdienste basieren dariiber hinaus in der Regel auf ver- 
schiedenen Online-Datenbanken, die jede ein individuelles 
Suchwerkzeug erfordem. Insgesamt herrscht ein groBes Be- 
diirfhis, die verfiigbaren Dienste zu bQndeln, so daB der Be- 
nutzer auf sie nur tiber eine einzige Benutzerschnittstelle zu- 
greifen kann. 

[0008] Daher ^schienen kiirzlich immer mehr Meta- 
Suchmaschinen im World Wide Web und in firmenintemen 
Netzen, um die Quality des Prozesses der Informationsbe- 
schaffting im Internet oder Intranet zu verbessem und um 
die obigen Unzulanglichkeiten fur den Benutzer zu beseiti- 
gen, die durch die wachsende Zahl an verfUgbaren Such- 
diensten entstehen. Einige der gangisten Meta-Suchmaschi- 
nen sind zum Beispiel Dogpile (www, dogpile.com), Meta- 
Crawler (www.metacrawler.com). Mamma (www.mam- 
ma.cora). Inference Find (www.inference.com), Find.de 
(www.find.de), ProFusion (www.profusion.com), Search4 
(www.5eaFch4.com). 

[0009] Eine Meta-Suchmaschine ist nicht eine "Suchma- 
schine" im buchstablichen Sinne, da sie nicht eine Suche 
ausfuhrt, sondem vielmehr die Funktion einer Schnittstelle 
zu Primarsuchmaschinen hat. Von Hrmen zur Verfugung ge- 
stellte Meta-Suchmaschinen, ermagHchen dem Kunden und 
den Angestellten einen zentralen Einstiegspunkt, um in ver- 
schiedenen intemen und extemen Datenbanken nach Infor- 
mationen oder Losungen zu suchen, die in Zusammenhang 
mit den Produkten und Dienstleistungen der Firma stehen. 
Im Prinzip sendet die Meta-Suchmaschine unter Verwen- 
dung des Hypertext Transfer Protocols (HTTP) Suchanfra- 
gen gleichzeitig zu mehreren Primarsuchmaschinen und 
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biindelt die eriialtenen Sucheigebnisse. Es gibt eine gemein- 
same Benutzerschnittstelle fur alle Suchmaschinen, die dazu 
verwendet wird, eine Suchanfrage einzugeben. Die Meta- 
Suchmaschine iibertragt eine Anfrage weiter zu den Primar- 
suchmaschinen und wandelt die Anfrage inklusive speziel- 5 
ler Suchoptionen in die individuelle Syntax jeder Primar- 
suchmaschine um. In einigen Fallen kann der Benutzer seine 
bevorzugten Primarsuchmaschinen aus einer von der Meta- 
Suchmaschine zur Verfiigung gesteUten Liste auswahlen. 
Die von den verschiedenen Primarsuchmaschinen zuriick- lO 
gegebenen Suchergebnisse, werden dann von der Meta- 
Suchmaschine verarbeitet, um 1) TVeffer (Querverweise zu 
Webseiten, die wahrend der Sue he gefunden wurden) auszu- 
filtem, die in den Suchergebnissen von mehr als einer Such- 
maschine erscheinen, 2) die Treffer beziiglich einer von den 15 
Primarsuchmaschinen bereitgesteUten Wertung zu klassifi- 
zieren, und 3) die Treffer in einem einheitlichen Layout an- 
zuzeigen. Detailliertere Beschreibungen von Meta-Suchma- 
schinen konnen zum Beispiel bei www.metacrawler.com/ 
help/fax/howworks.html oder bei www.manima.com/ 20 
about. html gefunden werden. 

[0010] Eine der Aufgaben einer Meta-Suchmaschine ist 
es, die Suchergebnisinformationen von den Antwortseiten 
der Primarsuchmaschinen zu extrahieren. Nachdem die 
Meta-Suchmaschine eine Suchanfrage als HTTP- Anfrage 25 
zu einer Primarsuchmaschine gesendet hat, empfangt sie 
von ihr via HTTP die gefundenen Suchinformationen, d. h. 
eine in eine Antwortseite eingebettete Trefferliste. Da das 
Layout der Antwortseiten der Primarsuchmaschine nicht 
standardisiert ist, d. h. die verschiedenen Primarsuchma- 30 
schinen stellen ihre Sucheigebnisse unterschiedlich am 
Bildschirm dar, ist die Meta-Suchmaschine so konfiguriert, 
daB sie mit den unterschiedlichen Layouts und Formaten der 
Suchergebnisse der verschiedenen Primarsuchmaschinen 
zurecht kommt. Des weiteren wird eine neue Konfiguration 35 
integriert, wenn eine zusatzliche Primarsuchmaschine zur 
Meta-Suchmaschine hinzugefiigt wird. Dartiberhinaus kann 
sich das Layout der Sucheigebnisse von Zeit zu Zeit andem. 
Deshalb werden die verschiedenen Konfigurationen auch re- 
gelmaBig Qberwacht und, wenn Anderungen auftreten, an- 40 
gepaBt. 

[0011] GemaB einem ersten Aspekt, wird in einem von ei- 
ner Meta-Suchmaschine durchgefUhrten Verfahren eine 
Suchantwort, die von einer Primarsuchmaschine in einer 
Suchantwortdarstellung bereitgestelU wild, von der Mela- 4S 
Suctmiaschine verarbeitet. Das Verfahren umfafit, dafi sich 
die Meta-Suchmaschine selbst an eine neue Suchantwort- 
darstellung anpafit. 

[0012] GemaB einem anderen Aspekt stellt die Erfindung 
ein von einem Computersystem durchgefiihrtes Verfahren 50 
bereit, um eine Schnittstelle zu mindestens einer Primar- 
suchmaschine zu konfigurieren. Die Schnittstelle hat die 
Funktion, Suchergebnisse aus Suchantworten der Primar- 
suchmaschinen in einer Suchantwortdarstellung zu extrahie- 
ren. Das Verfahren umfafit das automatische Anpassen der 55 
Schnittstelle an eine neue Suchantwortdarstellung. 
[0013] GemaB einem weiteren Aspekt stellt die Erfindung 
ein Computersystem bereit, das eine Meta-Suchmaschine 
und eine Konfigurationseinheit umfafit. 

[0014] Die Meta-Suchmaschine umfafit eine Schnittstelle 60 
zu mindestens einer Primarsuchmaschine, Die Konfigurati- 
onseinheit ist derart ausgestaltet, daB sie die Schnittstelle au- 
tomat! sch an eine neue Suchantwortdarstellung der Primar- 
suchmaschine anpafit. 

[0015] GemaB noch einem weiteren Aspekt stellt die Er- 65 
findung ein Computerprogramm-Produkt mit Programm- 
code bereit, um ein Verfahren zum Konfigurieren einer 
Schnittstelle zu mindestens einer Primarsuchmaschine 
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durchzufuhren, wenn es auf einem Computersystem ausge- 
ftihrt wird. Die Schnittstelle hat die Funktion, Sucheigeb- 
nisse aus einer Suchantwort der Primarsuchmaschine in ei- 
ner Suchantwortdarstellung zu extrahieren. Das Verfahren 
umfafit die automatische Anpassung der Schnittstelle an 
eine neue Suchantwortdarstellung. 

[0016] Andere Merkmale sind dem offenbarten Verfahren 
und der offenbarten Vorrichtung inherent oder werden durch 
die folgende detaiUierte Beschreibung der Ausfuhrungsbei- 
spiele und der zugehorigeh Zeichnungen dem Fachmann er- 
sichtlich werden. 

[0017] Im folgenden werden die Zeichnungen kurz be- 
schrieben. 

[0018] Fig. 1 ist ein Blockdiagramm, das die Architektur 
eines Systems auf hoher Ebene visualisiert, das eine Meta- 
Suchmaschine, eine Primarsuchmaschine und einen Benut- 
zer-Hostcomputer umfafit; 

[0019] Fig. 2 ist eine funktionelle Darstellung einer 
Schnittstelle zwischen einer Meta-Suchmaschine und einer 
Primarsuchmaschine; 

[0020] Fig. 3 ist ein Blockdiagramm, das die ExU^tion 
von Suchergebnisinformationen veranschaulicht; 
[0021] Fig. 4 ist ein Blockdiagramm, das die automatische 
Erkennung von neuen Suchantwortdarstellungen veran- 
schaulicht; 

[0022] Fig. 5 zeigt eine typische Suchantwort einer Pri- 
marsuchmaschine; 

[0023] Fig. 6 stellt den HTML-Quellcode eines speziellen 
Suchergebnisrahmens dar; 

[0024] Fig. 7 stellt den zu dem Suchergebnisrahmen von 

Fig. 6 gehorenden HTML-Syntaxbaum dar, 

[0025] Fig. 8 stellt einen dreidimensionalen Merkmals- 

raum fUr HTML-Syntaxelemente dar; 

[0026] Fig. 9 zeigt einen HTML-Syntaxbaum eines Tfeils 

einer Suchergebnisliste. 

[0027] Im folgenden werden die bevorzugten Ausfiih- 
rungsbeispiele im Detail beschrieben. Die allgemeine Funk- 
tion der bevorzugten Ausfuhrungsbeispiele ist in Fig. 1 dar- 
gestellt. Bevor jedoch mit der Beschreibung weiter fortge- 
fahren wird, werden mehrere Punkte der bevorzugten Aus- 
fuhrungsbeispiele diskutiert. 

[0028] In den bevorzugten Ausfuhrungsbeispielen bezieht 
sich "Primarsuchmaschine" auf eine Intemetsuchmaschine, 
die Informationen aus einer speziellen Datenbank von Inter- 
netdokumenten herausholt. Im Gegensatz dazu bezieht sich 
der Begriff "Meta-Suchmaschine" auf eine Suchmaschine, 
die keinen direkten Zugang zu solch einer Datenbank be- 
sitzt, sondem vielmehr als Schnittstelle zu anderen Primar- 
suchmaschinen dienL Deshalb umfaBt eine Meta-Suchma- 
schine eine Schnittstelle zum Benutzer und eine Schnitt- 
stelle zu anderen Primarsuchmaschinen, wobei letztere ent- 
weder ein Teil der Meta-Suchmaschine ist oder eine ge- 
trennte Softwarekomponente ist, die an anderer Stelle im 
Netzwerk lokalisiert ist. 

[0029] Der BegrifF "Suchantwortdarstellung" bezieht sich 
auf das allgemeine Layout des Dokuments, welches das Su- 
chergebnis einer Primarsuchmaschine enthalt, jedoch nicht 
auf eine spezielle Suchantwort, die sich auf eine spezielle 
Suchanfrage bezieht Die Darstellung von Suchantworten 
von Primarsuchmaschinen ist Anderungen unterworfen. 
Deshalb bezieht sich der Begriff "neue Suchantwortdarstel- 
lung" nicht nur auf Suchantwortdarstellungen neuer Primar- 
suchmaschinen, die zur Meta-Suchmaschine hinzugefiigt 
werden, sondem auch auf Anderungen der Suchantwortdar- 
stellungen von Primarsuchmaschinen, die schon Teil der 
Meta-Suchmaschine sind. 

[0030] Der Begriff "Treffer" bezieht sich auf ein spezielles 
Dokument, das von der Primarsuchmaschine wahrend der 
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Intemetsuche gefunden wurde. In der Regel sind die von ei- 
ner Primarsuchmaschine gefundenen IVeffer in der Suchant- 
wortdarstellung zwischen anderen Infonnationen eingebet- 
tet. Die mit einem IVefTer assoziierten Suchergebnisinfor- 
mationen sind in einem "Ergebnisrahmen" gruppiert. Da 5 
eine Primarsuchmaschine gewohnlich wahrend einer Inter- 
netsuche mehrere Treffer findet, urafaBt die Suchantwort- 
darstellung mehrere Ergebnisrahmen mit den entsprechen- 
den Treffem und zusatzliche Teile, die sich nicht auf eine 
spezielle Suchanfrage beziehen. 10 
[0031] In den bevorzugten Ausfiihrungsbeispielen sind 
die Suchantworten in einer der beiden Markup-Sprachen 
HTML Oder XML codiert. In diesen Sprachen codierte Do- 
kumente konnen als Sequenz von Markups (Tags) betrachtet 
werden, die im Text plaziert werden und das Format und 15 
Layout des Textes definieren. In diesem Zusammenhang be- 
zieht sich der Begrifif "Syntax" und entsprechend "Syntax- 
element" auf die Darstellung dieser Markups im Text und 
ihre spezielle Bedeutung. Ein Syntaxmuster ist eine be- 
stimmte Sequenz solcher Syntaxelemente, wobei die Rei- 20 
henfolge und das Verhaltnis zwischen den Syntaxelementen 
wichtige Merkmale des Musters sind. Das Andem eines 
Syntaxelementes innerhalb eines HTML oder XML Doku- 
ments hat in der Regel Auswirkungen auf die Darstellung 
des entsprechenden Textabschnitts bezuglich dessen Layout 25 
Oder Format, wenn es mit einem HTML oder XML kompa- 
tiblen Browser (Software- Werkzeug zum Anzeigen von in 
HTML oder XML codierten Intemetdokumenten) angezeigt 
wird. 

[0032] Der Begrifif "S uchergebnisinformation" faBt in die- 30 
sem Zusammenhang die Infonnationen zusammen, die mit 
einem von einer Primarsuchmaschine gefundenen TVefiFer 
assoziiert sind, insbesondere die URL, den Utel des Doku- 
ments, eine kurze Beschreibung des Inhalts des Dokuments, 
ein Datum, usw. 35 
[0033] Ein Aspekt des offenbarten Verfahrens zum auto- 
matischen Anpassen einer Schnittstelle zwischen einer 
Meta-Suchmaschine und Primarsuchmaschinen an eine 
neue Suchantwortdarstellung ist das Erkennen von sich wie- 
derholenden Syntaxmustem in HTML oder XML Doku- 40 
menten. Dieser spezielle Aspekt ist aUgemein auf die auto- 
matische Analyse, die Informationsgewinnung und die De- 
tektion von Formatanderungen in Dokumenten anwendbar. 
Eine Anwendung zum Beispiel, in der die Brkennung von 
sich wiederholenden Mustem in der Syntaxstruktur von 4S 
HTML Oder XML Dokumenten vorteilh^ ist, ist das Aus- 
findigmachen von Pteisinformadonen in Produktlisten bei 
E-Business Anwendungen. Deshalb behalten wir uns hier- 
mit die Rechte vor, Schutz fur diesem Aspekt ohne Bezug zu 
Suchmaschinen getrennt zu beanspruchen. 50 
[0034] Obwohl das offenbarte Verfahien vorzugsweise 
mittels Software implemendert wird, konnte es ebenso ganz 
Oder in Teilen mittels Firmware oder Hardware realisiert 
werden, ohne dafi dabei vom Umfang oder der Idee der Er- 
findung abgewichen wird. 55 
[0035] Die automadsche Anpassung an neue Suchant- 
wortdarstellungen kann auf zwei verschiedene Arten gese- 
hen werden. Von einem Standpunkt aus pafit sich die Meta- 
Suchmaschine als Ganzes an, um mit neuen Suchantwort- 
darstellungen umgehen zu konnen. Von einem anderen, spe- 60 
zielleren Standpunkt aus, paBt nur der Tfeil der Meta-Such- 
maschine, der als SchnittsteUe zu anderen Primarsuchma- 
schinen dient, seine Konfiguration automatisch an neue 
Suchantwortdarstellungen an, Zu letzterem sind verschie- 
dene Ausfuhrungsbeispiele moglich. In den bevorzugten 65 
Ausfiihrungsbeispielen ist die gesamte Schnittstelle in die 
Meta-Suchmaschine integriert, wahrend in anderen Ausfuh- 
rungsbeispielen die gesamte Schnittstelle oder Teile der 



Schnittstelle getrennt von der Meta-Suchmaschine und im 
Netzwerk verteilt sind. Zum Beispiel ist es moglich, nur den 
Teil der Schnittstelle zu delokalisieren, der die Eiicennung 
und Analyse der Ergebnisrahmen in neuen Suchantwortdar- 
stellungen durchfiihrt. 

[0036] Neben der Funktion, sich an neue Suchantwortdar- 
stellungen anzupassen, hat die Schnittstelle die Funkdon, 

die Suchergebnisinformationen aus "alten Suchantworten", 
d. h. Suchantworten die der Schnittstelle schon bekannt 
sind, zu extrahieren. Deshalb ist in den bevorzugten Ausfiih- 
rungsbeispielen der erste Schritt, zu besdmmen, ob die frag- 
liche Suchantwort "alt" oder "neu" ist, d. h. ob die Sucher- 
gebnisinformationen direkt extrahiert werden konnen, in- 
dem eine, der Schnittstelle schon bekannte Suchantwortdar- 
stellung, venvendet wird, oder ob ein Verfahren gestartet 
werden muB, um die Suchergebnisinformationen innerhalb 
der neuen Suchantwortdarstellung zu detektieren. Im allge- 
meinen macht es die Anpassung an neue Suchantwortdar- 
stellungen jedoch nicht erforderlich, zwischen neuen und 
"alten" Suchantwortdarstellungen zu unterscheiden, denn es 
ist durchaus moglich, alle Suchantworten als neu zu betrach- 
ten und die Anpassung anzuwenden. Daher wird in anderen 
Ausfiihrungsbeispielen (nicht gezeigt) das Verfahren zur 
Detektion der Suchergebnisinformationen innerhalb der 
Suchantwortdarstellung auf alle Suchantworten angewandt, 
oder mit anderen Worten, es ist kein Verfahrensschritt im- 
plementiert, um Suchantwortdarstellungen automatisch als 
neu zu erkennen. 

[0037] In den bevorzugten Ausfiihrungsbeispielen werden 
schon erkaimte Suchantwortdarstellungen, in der Schnitt- 
stelle gespeichert und sind daher der Schnittstelle bekannt. 
Deshalb ist das Kriterium, eine Suchantwortdarstellung als 
neu anzusehen, daB sie vorher noch nicht erkannt wurde, 
d. h. daB sie noch nicht in der Schnittstelle gespeichert ist. 
[0038] Normalerweise beinhalten Teile der Suchantwort 
Infonnationen, die keinen Bezug zu den Sucheigebnisinfor- 
mationen haben und daher fiir die weitere Erkennungsana- 
lyse eliminiert werden. Deshalb umfassen die bevorzugten 
Ausfuhrungsbeispiele einen Verfahrensschritt, der diejeni- 
gen Teile der Suchantwort, die die Suchergebnisinformatio- 
nen tragen, d. h. die Ergebnisrahmen, von denjenigen Tei- 
len, die sich nicht auf ein spezielles Sucheigebnis beziehen, 
automatisch unterscheidet. Das wird hochst bevorzugt da- 
durcb erreicht, daB entweder einer der beiden oder beide 
Teile automatisch detektiert werden, indem zwei Suchant- 
worten von unterschiedlichen Anfragen veiglichen werden. 
Normalerweise sind die Teile der Suchantwort, die keine 
Suchergebnisinformationen enthalten, wie Logos, Werbung, 
Benutzerfainweise oder Kontrollelemente, in den Suchant- 
worten zweier aufeinanderfolgender Suchanfragen identisch 
und werden bevorzugter Weise als diejenigen Ibile identifi- 
ziert, deren Inhalt sich nicht in zwei unterschiedliche Such- 
antworten andert 

[0039] In der Regel tindet die Primarsuchmaschine auf 
eine einzige Suchanfrage mehrere IVeffer. Diese Treffer 
werden als Liste von Ergebnisrahmen, die jeweils einen 
IVeffer enthalten, angezeigt. Eine Mdglichkeit, Ergebnisrah- 
men innerhalb der Suchantwortdarstellung zu erkennen, ist, 
dieses wiederholte Auftreten der Ergebnisrahmen zu nutzen. 
[0040] Deshalb venvendet das bevorzugte Ausfiihrungs- 
beispiel zur Detektion der Ergebnisrahmen Suchantworten, 
die mehr als einen Ergebnisrahmen enthalten. Diese sich 
wiederholenden Ergebnisrahmen werden hochst bevorzugt 
aufgrund ihres ahnlichen Aussehens iimerhalb der Suchant- 
wortdarstellung identifiziert. 

[0041] Normalerweise umfassen die in einem Ergebnis- 
rahmen enthaltene Suchergebnisinformationen mehrere 
Komponenten, wie die URL, den Titel, eine kurze Beschrei- 



DE 100 56 

7 

bung und das Datum des entsprecbenden Dokuments/Diese 
verschiedenen Komponenten werden in verscbiedenen For- 
maten und Layouts angezeigt und weiden daher h5cbst be- 
vorzugt aufgrund ibies speziellen visuellen Aussebens iden- 
tifiziert. 5 
[0042] Das Blockdiagramm der Fig, 1 zeigt fur die bevor- 
zugten Ausfuhrungsbeispiele der Erfindung die Funktion ei- 
ner Meta-Suchmaschine 4 als Schnittstelle zwischen einem 
Benutzer-Hostcomputer 2 und mehreren Servem von Pri- 
marsuchmaschinen 6; Anstatt eine separate Sucbanfrage zu lO 
alien Servem der Primarsuchmaschinen 6 zu schicken, ricb- 
tet der Benutzer-Hostcomputer 2 seine Anfrage nur einmal 
an den Meta-Suchmaschinenserver4, der die Anfrage an die 
speziellen Anforderungen der Primarsuchmaschinen 6 an- 
paBt und die speziellen Sucbanfragen an die einzelnen Ser- 15 
ver der Mmarsuchmascbinen 6 ubermittelt. Nachdem die 
Meta-Suchmaschine die individuellen Sucbergebnisse von 
den Primarsuchmaschinen empfangen hat, detektiert und 
biindelt sie die Sucbergebnisse, konvertiert sie in ein ein- 
heidiches Format und schickt sie zuruck zum Benutzerhost. 20 
Dadurch ist der Benutzer in der Lage, durch Senden nur ei- 
ner einzigen Suchanfrage auf mehrere Primarsuchmaschi- 
nen gleichzeitig zuzugreifen und die gefilterten und verein- 
heidichten Sucbantworten der verschiedenen Primarsuch- 
maschinen alle auf einmal am Bildschirm zu erhalten. 25 
[0043] Fig. 2 ist eine funktionelle Darstellung auf hoher 
Ebene einer Schnittstelle 8 zwischen der Meta-Suchma- 
schine 4 und der Primarsuchmaschine 6. Die Schnittstelle 8 
dient im allgemeinen als Konfigurationseinheit, um die 
Meta-Suchmaschine 4 an neue Suchantwortdarstellungen 30 
anzupassen. Wie oben bereits erwahnt, kann die Schnitt- 
stelle 8 entweder als Teil der Meta-Suchmaschine 4 oder als 
getrennte Softwarekomponente implementiert werden. Das 
Schema der Fig. 2 nimmt an, daB von der Meta-Suchma- 
schine 4 eine Suchanfrage eines Benutzers an die Primar- 35 
sucbmascbine 6 weitergeleitet wurde und daB die Primar- 
sucbmascbinen 6 ibre individuellen Sucbantworten gefiin- 
den baben. Die Sucbantworten sind beispielsweise in der 
HTML Markup-Spracbe codiert. 

[0044] Als Antwort auf die Suchanfrage der Meta-Sucb- 40 
mascbine 4 scbickt die Primtoucbmascbine 6 die Sucbant- 
wort via HTTP in Form eines HTML Dokuments zum Inter- 
face 8 zurUck. Hne Sucbergebniserkennung 12, welcbe die 
Sucbergebnisrabmen und ihren Inbalt in den Sucbantworten 
detektiert, wird auf die individuellen HTML Sucbantworten 4S 
der Primarsucbmascbinen angewandt. Die Sucbergebniser- 
kennung 12 ist in der Lage, die Eigebnisrabmen zu detektie- 
ren und die mit dem Treffer assoziierten Informationen zu 
extrabieien, aucb wenn das Layout, das Format oder die Po- 
sition der Eigebnisrabmen innerhalb des HTML Dokuments SO 
oder die interne Stniktur des Ergebnisrabmens ver&idert 
sind Oder eine komplett neue Primarsuchmaschine, die eine 
neue Sucbantwortdarstellung verwendet, zu den existieren- 
den PrimSrsucbmaschinen binzugefugt wird. Die in einem 
Eigebnisrabmen entbaltenen Eigebnisinfoimationen 14, ss 
umfassen die URL, den Utei des referenzierten Dokuments, 
eine kuize Bescbieibung des Inbalts des referenzierten Do- 
kuments, das Datum, die Quelle des Sucbereigebnisses, 
d, h. der Name der Primarsuchmaschine, und eine Wertung, 
die die Relevanz des gefiindenen Dokuments angibt. Diese 60 
extrahierten Suchergebnisinformationen 14 werden dann 
weiter zur Meta-Suchmaschine 4 ubertragen. In den bevor- 
zugten Ausfiibrungsbeispielen werden die TVeffer gemaB ih- 
rer Wertung klassifiziert und in einem einheitlicben Format 
angezeigt, wobei Treffer die von mehr als einer Primarsucb- 65 
mascbine gefunden wurden, entfemt werden. 
[0045] In den bevorzugten Ausfuhrungsbeispielen konnen 
zwei Falle der Extraktion von Sucbexgebnissen unterscbie- 
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den werden. Erstens, die fraglicbe Sucbantwortdarstellung 
ist bereits bekannt und in die Schnittstelle integriert, und 
zweitens, die Sucbantwortdarstellung ist neu. Da die Meta- 
Suchmascbine keine Kontrolle Uber das Layout der Primar- 
suchmaschinen hat und nicht einmal von der Primarsuchma- 
schine uber solche Layout- oder Formatandeningen benacb- 
richtigt wird, muB sie in der Lage sein, beide Falle, also 
"alte" und "neue" Suchantwortdarstellungen zu handhaben. 
Die ExUraktion 18 von Suchergebnisinformationen aus 
neuen Suchantwortdarstellungen und wie eine Sucbantwort- 
darstellung als neu erkannt wird, wird in Fig. 4 fiir die be- 
vorzugten Ausfuhrungsbeispiele ausfiibrlicher erlautert. In 
Fig. 3 werden die Verfahrensschritte 16 zur Extraktion der 
Suchergebnisinformationen aus Sucbantworten, die "alte", 
der Schnittstelle bereits bekannte Suchantwortdarstellungen 
baben, veranschaulicht. 

[0046] In den in Fig. 3 dargestellten bevorzugten Ausfiib- 
rungsbeispielen wird ein HTML Suchantwortdokument 10 
von einer Primarsuchmaschine 6 zuriickgegeben. Ein bierar- 
chischer HTML Syntaxbaum, der als Basis fur alle weiteren 
Verarbeitungsschritte dient, wird von einem Syntaxbaum- 
Generator 20 erstellt. 

[0047] Ein Extraktionsschritt 22, der zwei Verfahrens- 
schritte umfaBt, namlich die Extraktion 21 des Ergebnisrab- 
mens und die Extraktion der Suchergebnisinformationen 23, 
wird auf den Syntaxbaum der Suchantwort angewandt. Zu- 
erst lokalisiert und extrahiert die Ergebnisrahmenextraktion 
unterschiedliche, in der Suchantwort enthaltene Eigebnis- 
rabmen 25, indem sie den Syntaxbaum der Suchantwort mit 
bekannten Syntaxmustem von in einer Datenbank 40 ge- 
speicherten Eigebnisrabmen vergleicbt. Dazu wird ein Syn- 
taxmuster der Datenbank 40 mit alien Syntax teilbaumen der 
Suchantwort verglichen. Wenn ein Syntaxteilbaum mit dem 
Syntaxmuster identisch ist, wird ein Eigebnisrabmen detek- 
tiert. Wenn alle Syntaxteilbaume der Suchantwort getestet 
wurden, werden die detektierten Ergebnisrahmen 25 zum 
zweiten Extraktionsschritt 23 iibermittelt, um die Sucher- 
gebnisinformationen zu identiiizieren. Zusammen mit dem 
Syntaxmuster des Ergebnisrabmens wird in den bevorzug- 
ten Ausfuhrungsbeispielen aucb die Rolle der Syntaxele- 
mente als TrSger der Sucbeigebnisinformationen in der Da- 
tenbank 40 als ein zus^tzlicbes Attribut gespeicbert. Da- 
durch wird ein bestimmter lyp der Suchergebnisinformatio- 
nen 42 (URL, Utel, Datum, Bescbieibung, Quelle, Wertung) 
mit einem speziellen Syntaxelement des Eigebnisrabmens 
assoziiert. 

[0048] Diese Attribute werden dann von dem Extraktions- 
schritt 23 verwendet, um die Sucbeigebnisinformationen 42 
des Trefifers zu bestimmen und der Meta-Suchmaschine 4 
weiterzuleiten. In anderen Ausfuhrungsbeispielen (nicht ge- 
zeigt) wird die Verknupfiing der Sucbinformationen mit spe- 
ziellen Syntaxelementen nicht als Attribute in der Daten- 
bank zusammen mit dem Syntaxmuster gespeicbert, son- 
dem w^den in jedem Extraktionsschritt 22 identifiziert. 
[0049] In Fig. 4 sind die Scbritte der von der Schnittstelle 
8 durcbgefiibrten automatiscben Brkennung der Sucbeigeb- 
nisinformationen in einem Blockdiagranun daigestellt. Die 
komplette Schnittstelle umfaBt zwei Extraktionsteile 16 und 
18, wobei die Extraktion 16 Sucbantworten von "aiten" 
Suchantwortdarstellungen verarbeitet, die zuvor erkannt 
werden sind und schon in die Schnittstelle integriert wur- 
den. Auf der anderen Seite fiihrt die Extraktion 18 eine Er- 
kennung von neuen Suchantwortdarstellungen duicb, die 
der Schnittstelle noch nicht bekannt sind. 
[0050] Wenn man als Eingabe der Schnittstelle 8 ein 
HTML Suchergebnisdokument 10 annimmt, das von einer 
Primarsuchmaschine 6 zuriickgegeben wurde, analysiert der 
Syntaxbaum-Generator 20 die HTML Syntaxstruktur des 
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Suchergebnisdokuments, indem er die HTML Ikgs ionex- 
halb des Dokuments erkennt und einen hierarchischen 
HTML Syntaxbaum erstellt, der das hierarchische Verhalt- 
nis der Syntaxelemente (Tags) reprasentiert. Das HTML 
Dokument wird so in einen Syntaxbaum transformiert, der 5 
das Format und die Layoutstruktur der urspriinglichen 
HTML Suchantwort reprasentiert, 

[0051] Das Ziel des Extraktionsschrittes 23 ist festzustel- 
len, ob der fragliche HTML Syntaxbaum eine Darsteliung 
von Ergebnisrahmen enthalt, die dem System schon bekannt lO 
sind. Um dies zu erreichen, wird der BTML Syntaxbaum 
mit dem HTML Syntaxmuster einer Datenbank 40 vergli- 
chen, in dem die HTML Syntaxstruktur des bekannten Er- 
gebnisrahmens gespei chert ist. Wenn der Extraktionsschritt 
22 in der Lage ist, die Ergebnisrahmen innerhalb des HTML 15 
Suchergebnisdokuments zu lokalisieren, wird die Bedeu- 
tung der verschiedenen Syntaxelemente im Ergebnisrahmen 
bestinunt und die entsprechenden Suchergebnisinformatio- 
nen 42 extrahiert und zur Meta-Suchmaschine 4 iibermittelt. 
Andemfalls gibt es zwei Moglichkeiten. Erstens, die Pri- 20 
marsuchmaschine hat keine Suchergebnisse gefunden, oder 
zweitens, die Suchantwortdarstellung ist fur die Schnitt- 
stelle neu und es kormten aus diesem Grunde keine Ergeb- 
nisrahmen extrahiert werden. Um sich fur eine der beiden 
Moglichkeiten zu entscheiden, werden zwei Kriterien uber- 25 
priift. Erstens, es wird gepruft, ob die Anzahl der aufeinan- 
derfolgenden Fehlversuche, Ergebnisrahmen zu extrahieren, 
einen gewissen Grenzwert uberschreiten, und zweitens, ob 
Ergebnisrahmen von Testanfragen extrahiert werden kon- 
nen, von denen bekannt ist, daB sie Suchergebnisse finden. 30 
[0052] Werm im Extraktionsschritt 22 keine Rahmen de- 
tektiert werden konnen, wird ein Zahler 24 um eine Einheit 
erhoht. Wenn der Zahler unter einem bestimmten Schwell- 
wert 26 liegt, dann wird vermutet, daB die ursprungliche 
Suchanfrage keine Suchergebnisse gefunden hat und daher 35 
wird eine "kein Suchergebnis" Mitteilung 44 an die Meta- 
Suchmaschine 4 tibermittelt. Andemfalls ist die Eigebnis- 
rahmenextraktion fur eine bestimmte Anzahl mlBlungen, so 
daB es daher sehr wahrscheinlich ist, daB die Suchantwort- 
darstellung neu ist. Daher wird das zweite Kriterium geprOft 40 
und es werden einige Testanfragen vom Verfahrensschritt 28 
durchgefiihrt, fUr die bekannt ist, daB die Primarsuchma- 
schine mehr als einen Treffer findet. Ein Vergleichsverfah- 
ren ahnlich dem im Extraktionsschritt 22 wird im Verfah- 
rensschritt 28 auf die Suchantworten der Testanfragen ange- 45 
wendet. Wenn Ergebnisrahmen von den Suchantworten der 
Testanfragen extrahiert werden kdnnen, was bedeutet, daB 
im Gegensatz zur ersten Annahme gem^ dem ersten Krite- 
rium, die Suchantwortdarstellung nicht neu ist und Ergeb- 
nisrahmen generell von dieser Suchantwortdarstellung ex- 50 
trahiert werden koimen, dann wird vermutet, daB die ur- 
spriingliche Suchanfrage keine Suchergebnisse gefunden 
hat. Daher wird die "kein Ergebnis" Mitteilung 44 zur Meta- 
Suchmaschine 4 Ubermittelt. Wenn jedoch die Extraktion 28 
keine Ergebnisrahmen aus den Suchantworten der Ibstan- 55 
fragen extrahieren konnte, wird schlieBlich davon ausgegan- 
gen, daB die Suchantwortdarstellung neu ist und der Ibil 18 
der Schnittstelle wird durch den Verfahrensschritt 30 initia- 
lisiert, um die neue Suchantwortdarstellung zu erkennen. 
Insgesamt geht die Schnittstelle von einer neuen Suchant- 60 
wortdarstellung aus, wenn beide der folgenden Bedingun- 
gen zutreffen: 1) die Suchrahmenextraktion miBlang fiir 
eine Reihe von aufeinanderfolgenden Suchanfragen, und 2) 
die Suchrahmenextraktion miBlang fur eine Reihe von Test- 
anfragen. In anderen Ausfuhrungsbeispielen (nicht gezeigt) 65 
wird nur die erste Bedingung verwendet, um die Erkennung 
von neuen Suchantwortdarstellungen zu initialisieren. 
[0053] Zur Erkermung von neuen Suchantwortdarstellun- 
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gen fordert Verfahrensschritt 32 zwei verschiedene Testan- 
fragen von der Primarsuchmaschine 6 an, von denen be- 
kannt ist, daB sie flir jede der Testanfragen mehrere IVeffer 
ergeben. Der Verfahrensschritt 34 vergleicht dann die Syn- 
taxbaume der Suchantworten der beiden Testanfragen, und 
identifiziert diejenigen Telle des Syntaxbaumes (Teil- 
baume), die in beiden Syntaxbaumen voUkommen identisch 
sind. Da man davon ausgeht, daB diese Teilbaume keine Su- 
chergebnisinformationen enthalten, wie Werbung oder Kon- 
trollelemente, werden sie vom HTML Syntaxbaum der 
Suchantworten der Testanfragen entfemt. Experimentellen 
Daten zufolge kann die GroBe des HTML Syntaxbaumes 
durch diese Hintergrundbeseitigung 34 um etwa 40% redu- 
ziert werden. 

[0054] Der reduzierte HTML Syntaxbaum wird zum Ver- 
fahrensschritt 36 weitergeleitet, der eine Clusteranalyse 
durchflihrt, um innerhalb der Suchantwortdarstellung die 
HTML Syntaxstruktur des Ergebnisrahmens zu erkennen. 
Die Clusteranalyse 36 detektiert in der Syntaxbaumstruktur 
der Suchantwortdarstellung sich wiederholende Muster und 
identifiziert diese als die Syntaxstruktur der Ergebnisrah- 
men. Das Eigebnis Clusteranalyse ist also ein HTML Syn- 
taxmuster, das den Ergebnisrahmen darstellt. Im Verfahrens- 
schritt 38 werden die Ergebnisinformationen den verschie- 
denen Syntaxeleraenten des Ergebnisrahmens zugeordnet. 
Die Bestimmung der Bedeutung eines bestimmten Syntax- 
elements wird typischer Weise durch Anwendung heuristi- 
scher Kriterien durchgefiihrt: 1) die URL wird durch ein 
spezielles HTML Tag <a href = "http//. . ."> erkannt, 2) die 
Beschreibung durch den langsten einheitlichen Textbereich, 
3) der Titel durch das den Fettdruck definierende Tag <b> 
und ein umgebendes <a href = "..."> Tag, 4) das Datum 
durch ein Zahlenformat, und 5) die Wertung durch die Text- 
marke und die Reihenfolge der TVefFer innerhalb der 
Suchantwort. Ein anderes Kriterium, das berlicksichtigt 
wird, ist die Reihenfolge der Elemente innerhalb des Ergeb- 
nisrahmens. 

[0055] SchlieBlich wird das extrahierte HTML Syntaxmu- 
ster, das die Zuordnung der Syntaxelemente zu den ver- 
schiedenen Bestandteilen der Suchergebnisinformationen 
enthSlt, der Datenbank 40, die bereits erkannte HTML Syn- 
taxmuster von Ergebnisrahmen enthalt, hinzugefugt. 
[0056] Dasselbe, oben beschriebene Verfahren wird der 
Reihe nach mit den Suchantworten der anderen Primarsuch- 
maschinen 6 und ihren HTML Suchergebnisdokumenten 
durchgefiihrt. 

[0057] Die Clusteranalyse 36 der bevorzugten Ausfiih- 
ningsbeispiele wild unten im einzelnen beschrieben. In Fig. 
5 ist eine typische, in einem Intemetbrowser angezeigte 
Suchantwort der bekaruiten Altavista-PrimSrsuchmaschine, 
gezeigt. Die Suchergebnisseite 46 zeigt Telle der Suchant- 
wort, die mit der Suchanfrage in Beziehung stehende Infor- 
mationen enthalten, namlich die Suchergebnisliste 48, und 
andere Ibile (50, 54), die nicht in Bezug zu einer speziellen 
Suchanfrage stehen. Letztere umfassen Werbung 50, Kon- 
trollelemente 52, Logos 54 und Benutzerhinweise 56. Ande- 
rerseits umfaBt die Ergebnisliste 48 eine aufeinanderfol- 
gende Anordnung von Ergebnisrahmen 58, welche die URL 
des entsprechenden Treffers 60, den Utel 62, cine kurze Be- 
schreibung des Inhalts des referenzierten I>>kuments 64 und 
das Datum 66 enthalten. 

[0058] Fig. 6 zeigt einen zu einem speziellen Suchergeb- 
nisrahmen 58 gehorenden Ausschnitt eines HTML Quellco- 
des 68. Dieser Ausschnitt 68 setzt sich aus HTML Syntax- 
elementen (Tags) zusammen, die das Format und das I-ayout 
des enthaltenen Textes definieren und den Text 72 des Aus- 
schnitts des Dokuments selbst, Zum Beispiel definiert das 
Syntaxelement <dl> einen bestimmten Listentyp <dl> defi- 
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niert ein Element dieser Liste, <dd> definiert den Inhalt des 
Listenelements, <b> bewirkt, daB der nachfolgende Text fett 
gedruckt ist, <bi> fugt einen Zeilenumbruch ein und <a href 
= . ."> ist ein Querverweis auf eine URL, wobei jedes der 
Elemente sein entsprechendes Endtag 74 </dl>, </dt>, usw. 
aufweist. 

[0059] Fig» 7 zeigt den von dem Syntaxbaum-Generator 
20 erzeugten HTML Syntaxbaum, der zum Suchergebnis- 
rahmen 68 der Fig, 6 gehort. Der Syntaxbaum bildet die Ba- 
sis fCir alle weiteren Verfahrensschritte. In den bevorzugten 
Ausfuhrungsbeispielen wird der Syntaxbaum-Generator 
von einem Modul der Interpreterprogrammiersprache PERL 
ausgefuhrt. Die HTML Tags werden in dem hierarchischen 
Syntaxbaum 76 in der Reihenfolge ihies Auftretens in den 
Dokumenten angeordnet, wahrend ihre Abhangigkeit von 
anderen Tags 70 durch ihre Ebene 78 wiedergegeben wird. 
Wenn ein bestimmtes Tag angewendet wird, bevor das End- 
tag des vorangegangenen Tags gesetzt ist, dann wird das be- 
treffende Tag im Syntaxbaum eine Ebene tiefer klassifiziert. 
Der zu einem bestimmten Suchergebnisrahmen gehorende 
Syntaxteilbaum 76 zum Beispiel beginnt auf der Ebene 7 
und geht runter bis Ebene 9. 

[0060] SchlieBlich wird jeder Knoten des HTML Syntax- 
baumes durch die folgenden drei Attribute charakterisiert, 
den Typ des Tags 70, die passende Ebene 78 und seine auf- 
einanderfolgende Position innerhalb des HTML Doku- 
ments. Diese drei Attribute spannen den in Fig. 8 dargestell- 
ten Merkmalsraum 80 auf. J«ies Syntaxelement wird in dem 
dreidimensionalen Merkmalsraum entsprechend den drei 
Dimensionen Typ des Tags 82, Ebene 84 innerhalb der hier- 
archischen Syntaxstruktur und der Position 86 innerhalb des 
HTML Dokuments klassifiziert. In Fig. 8 ist eine Anord- 
nung mehrerer aufeinanderfolgender Syntaxelemente 76 
dargestellt, die im Merkmalsraum ein Muster bilden und ein 
Teil eines speziellen Ergebnisrahmens sind. 
[0061] Der Syntaxbaum von Teilen einer Suchetgebnisli- 
ste ist in Fig. 9 gezeigt In den bevorzugten Ausfuhrungsbei- 
spielen besteht das Verfahren zur Detektion des Sucheigeb- 
nisrahmens darin, innerhalb des Syntaxbaumes 90 nach 
gleichen Qustem (Mustem) von Syntaxelementen der 
GrOBe 5 zu suchen. Die Lokalisiening dieser Cluster 88 er- 
laubt es dann, die verschiedenen Sucheigebnisrahmen von- 
einander zu unterscheiden und die Syntaxstruktur eines sol- 
chen Ergebnisrahmens zu bestimmen. Dieses Syntaxmuster 
wird dann in der Datenbank 40 der Fig. 3 gespeichert, wo es 
dazu verwendet wird, Sucheigebnisrahmen aus zukiinftigen 
Suchantworten zu extrahieren. 

[0062] In Fig. 7 ist das Syntaxmuster eines Ergebnisrah- 
mens mit seinen absoluten Ebenen gezeigt. In anderen Aus- 
fiihrungsbeispielen (nicht gezeigt) werden die detektierten 
Syntaxmuster einer neuen Suchantwortdarstellung normali- 
siert in der Datenbank 40 der Fig. 3 gespeichert, d. h. die 
oberste Ebene des hierarchischen Teilbaums, der dem detek- 
tierten Syntaxmuster entspricht, wird auf 1 gesetzt und die 
Ebenen der nachfolgenden Syntaxelemente werden entspre- 
chend angepaBt. Folglich wird nur die Ebene der Elemente 
des Syntaxmusters relativ zur obersten Ebene gespeichert, 
was das Vergleichsverfahren 22 invariant gegenuber der ab- 
soluten Ebene des Syntaxmusters des Ergebnisrahmens in- 
nerhalb der Suchantwortdarstellung macht. 
[0063] Eine Bedingung, die an die Detektion der Ergeb- 
nisrahmen gestellt wird, um das Verfahren 18 verlaBlicher 
zu machen, ist, daB von der Syntaxstruktur eines Ergebnis- 
rahmens eine gewisse Komplexitat gefordert wird, das 
heiBt, eine minimale Anzahl Tags und eine minimale Tiefe 
der Ebenen (tiefste Ebene des normalisierten Syntaxmu- 
sters). 

[0064] In einigen Primarsuchmaschinen ist die Syntax- 
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struktur der Ergebnisrahmen nicht fur alle Ergebnisrahmen 
identisch, sondem variiert innerhalb einer Suchantwortdar- 
stellung leicht. Deshalb ist ein Modell erforderlich, das ahn- 
liche Ergebnisrahmen in nur einem Muster reprasentiert. 
Zum Beispiel kann ein zusatzliches Syntaxelement, das ei- 
nen Zeilenumbruch definiert, in das Syntaxmuster eingefugt 
werden. Dafur wird ein Platzhalter, der den Typ des Tags un- 
bestimmt laBt, an der Stelle des Syntaxmusters einfugt, wo 
moglicherweise ein zusatzlicher Tag vorkommt. Wahrend 
des Syntaxmustervergleichs des Extraktionsschritts 22 der 
Fig. 3 kann das dem Platzhalter entsprechende Syntaxbaum- 
element jeden Syntax typ annehmen. Das erweiterte Syntax- 
muster ist daher so fiexibel, daB es ahnliche aber nicht iden- 
tische Ergebnisrahmen in einer Suchantwortdarstellung de- 
tektiert. 

[0065] Es ist daher ein allgemeiner Zweck der offenbarten 
Ausfiihrungsbeispiele, ein verbessertes Verfahren, Compu- 
tersystem und Computerprogramm-Produkt zur Verfiigung 
zu stellen, um ein Interface einer Meta-Suchmaschine auto- 
matisch, d. h. ohne manuellen Eingriff, an eine neue Such- 
antwortdarstellung anzupassen, wohingegen im Stand der 
Technik die KontrcUe und Anpassung manuell vorgenom- 
men wird. 

[0066] Alle Veroffentlichungen und existierenden Sy- 
steme, die in dieser Beschreibung erwahnt werden, sind per 
Bezug hier miteinbezogen. 

[0067] Auch wenn bestimmte Verfahren, Systeme und 
Produkte, die gemaB der Lehre der Erfindung erstellt sind, 
hier beschrieben wurden, beschrankt sich der Bereich dieses 
Patents nicht darauf. Im Gegenteil, dieses Patent schlieBt 
alle Ausfiihrungsbeispiele der Lehre der Erfindung mit ein, 
die entweder wortlich oder unter der Doktrin der Aquiva- 
lenz in den Bereich der beigefiigten Anspruche fallen. 

Legende zu den Figuren 
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1. Verfahren, welches mit einer Meta-Suchmaschine 
durchgefiihrt wird, bei dem eine von einer Primarsuch- 
maschine in einer Suchantwortdarstellung geliefert 
Suchantwort von der Meta-Suchmaschine verarbeitet 
wird, wobei das Verfahren umfaBt: die Meta-Suchma- 
schine pafit sich selbst an eine neue Suchantwortdar- 
stellung an. 

2. Verfahren nach Anspruch 1, bei dem die Meta- 
Suchmaschine eine Schnittstelle zum Extrahieren von 
Suchergebnissen aus der Suchantwort umfaBt und die 
Anpassung der Meta-Suchmaschine durch automati- 
sches Konfigurieren der Schnittstelle fiir die neue 
Suchantwortdarstellung durchgefiihrt wird. 

3. Verfahren nach einem der vorhergehenden Ansprii- 
che, bei dem die Meta-Suchmaschine automatisch eine 
neue Suchantwortdarstellung erkennt. 

4. Verfahren nach einem der vorhergehenden Ansprii- 
che, bei dem eine Suchantwortdarstellung ais neu be- 
trachtet wird, wenn die Meta-Suchmaschine sie zuvor 
nicht erkannt hat. 

5. Verfahren nach einem der vorhergehenden Ansprii- 
che, bei dem das sich Anpassen der Meta-Suchma- 
schine des weiteren umfaBt, daB mindestens eines der 
beiden automatisch detektiert wird: 

diejenigen Teile einer Suchantwortdarstellung, die 
keine Suchergebnisinformationen enthalten, und 

ii) Ergebnisrahmen in einer Suchantwortdarstel- 
lung, wobei Ergebnisrahmen diejenigen Teile ei- 
ner Suchantwortdarstellung sind, welche die Su- 
chergebnisinformationen enthalten. 

6. Verfahren nach einem der vorhergehenden Ansprii- 
che, bei dem das automatische Detektieren derjenigen 
Teile einer neuen Suchantwortdarstellung, die keine 
Suchergebnisinformationen enthalten, des weiteren das 
Vergleichen von mindestens zwei verschiedenen Such- 
antworten umfaBt. 

7. Verfahren nach einem der vorhergehenden Ansprii- 
che, bei dem das automatische Detektieren der genann- 
ten Teile des weiteren umfaBt, daB Teile, die keine In- 
formationen enthalten, als diejenigen Teile identifiziert 
werden, deren Inhalt sich in verschiedenen Suchant- 
worten nicht andert. 

8. Verfahren gem^ einem der vorheigehenden An- 
spriiche, bei dem das Detektieren von Ergebnisrahmen 
in Suchantworten des weiteren das Analysieren von 
Suchantworten, die mehr als ein Ergebnisrahmen ent- 
halten, unfifafit, wobei Ergebnisrahmen diejenigen Teile 
einer Suchantwortdarstellung sind, welche die Sucher- 
gebnisinformationen enthalten. 

9. Verfahren nach einem der vorhergehenden Ansprii- 
che, bei denen das Detektieren von Ergebnisrahmen in 
Suchantworten des weiteren umfaBt, daB Teile der 
Suchantwort identifiziert weiden, die ein ahnliches 
Aussehen haben. 

10. Verfahren nach einem der vorhergehenden An- 
spriiche, welches Komponenten eines Ergebnisrah- 
mens verwendet, wobei das Aussehen der verschiede- 
nen Komponenten eines Ergebnisrahmens dazu ver- 
wendet wird, um die spezielle Art der Information, 
welche die entsprechende Komponente enthalt, zu 
identifizieren, wobd Ergebnisrahmen diejenigen Teile 
einer Suchantwortdarstellung sind, welche die Sucher- 
gebnisinformationen enthalten. 

11. Verfahren, welches von einem Computersystem 
durchgefiihrt wird, zum Konfigurieren einer Schnitt- 
stelle zu mindestens einer Primarsuchmaschine, um 
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Suchergebnisse aus einer von der Primarsuchmaschine 
in einer Suchantwortdarstellung gelieferten Suchant- 
wort zu extrahieren, wobei das Verfahren ein automati- 
sches Anpassen der Schnittstelle an eine neue Suchant- 
wortdarstellung unifaBt. 5 

12. Verfahren nach Anspruch 11, bei dem die Schnitt- 
stelle ein Teil der Meta-Suchmaschine ist. 

13. Verfahren nach Anspruch 11 oder 12, bei dem die 
automatische Anpassung der Schnittstelle angewendet 
wird, wenn die Suchantwortdarstellung als neu erkannt lO 
wird. 

14. Verfahren nach einem der Anspruche 1 1 bis 13, bei 
dem eine Suchantwortdarstellung als neu betrachtet 
wird, wenn die Schnittstelle sie zuvor nicht erkannt hat. 

15. Verfahren nach einem der Anspriiche 11 bis 14, bei 15 
dem das automatische Anpassen der Schnittstelle des 
weiteren das automatische Detektieren von mindestens 
einem des folgenden umfafit: 

i) diejenigen Telle einer Suchantwortdarstellung, 
die keine Suchergebnisinformadonen enthalten, 20 
und 

ii) Ergebnisrahmen in einer Suchantwortdarstel- 
lung. 

16. Verfahren nach einem der Anspruche 1 1 bis 15, bei 
dem das Detektieren deijenigen Teile einer neuen 25 
Suchantwortdarstellung, die keine Suchereigebnisin- 
formationen enthalten, des weiteren mindestens das 
Vergleichen von verschiedenen Suchantworten umfaBt. 

17. Verfahren nach einem der Anspruche 11 bis 16, bei 
dem eine Suchantwortdarstellung durch eine Syntax- 30 
struktur der Suchantwortdarstellung charakterisiert 
wird. 

18. Verfahren nach einem der Anspruche 11 bis 17, bei 
dem das automatische Anpassen der Schnittstelle des 
weiteren umfaBt, daB Ergebnisrahmen diurch Detektie- 35 
ren von Mustem in der Syntaxstruktur der Suchant- 
wortdarstellung identifiziert werden. 

19. Verfahren nach einem der Anspriiche 1 1 bis 18, bei 
dem das Detektieren von Mustem in der Syntaxstruktur 
der Suchantwortdarstellung des weiteren das Suchen 40 
nach wiederholtem Auftreten von Mustem in der Syn- 
taxstruktur umfaBt. 

20. Verfahren nach einem der Anspruche 11 bis 19, bei 
dem das Detektieren von Mustem in der Syntaxstmktur 
der Suchantwortdarstellung des weiteren das Suchen 45 
nach sich wiederholenden Mustem in einem Merk- 
malsraum mit mehr als einer Dimension umfaBt, wobei 
die Merkmale von der Syntaxstruktur der Suchantwort- 
darstellung abgeleitet werden. 

21 . Verfahren nach einem der Anspriiche 1 1 bis 20, bei 50 
dem die Suchantwortdarstellung mit einer Markup- 
Sprache codiert ist. 

22. Verfahren nach einem der Anspriiche 11 bis 21, bei 
dem die Suchantwortdarstellung mit mindestens einem 
der beiden HTML und XML codiert ist. 55 

23. Verfahren nach einem der Anspruche 11 bis 22, bei 
dem das automatische Anpassen der Schnittstelle des 
weiteren umfaBt, daB die Bedeutung der Teile des Er- 
gebnisrahmens automatisch bestimmt werden. 

24. Verfahren nach einem der Anspruche 11 bis 22, bei 60 
dem das Bestimmen der Bedeumng der Tfeile des Er- 
gebnisrahmens des weiteren umfafit, daB die Syntax- 
elemente des Ergebnisrahmens den zugehorigen Su- 
chergebnisinformationen zugeordnet werden. 

25. Computers ystem umfassend: 65 
eine Meta-Suchmaschine, die eine Schnittstelle zu 
mindestens einer Primarsuchmaschine umfaBt; 

einen Konfigurator; 
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wobei der Konfigurator dazu ausgebildet ist, um die 
Schnittstelle automatisch an eine neue Suchantwort- 
darstellung der Primarsuchmaschine anzupassen. 

26. Computersystem nach Anspruch 25, bei dem der 
Konfigurator ein Teil der Meta-Suchmaschine ist. 

27. Computersystem nach Anspruch 25 oder 26, bei 
dem die Meta-Suchmaschine und der Konfigurator 5n- 
lich getrennt und Uber ein Netzwerk miteinander ver- 
bunden sind. 

28. Computersystem nach einem der Anspruche 25 bis 

27, bei dem der Konfigurator dazu ausgebildet ist, um 
Suchergebnisse, die in Ergebnisrahmen einer Suchant- 
wort mit einer neuen Suchantwortdarstellung enthalten 
sind, automatisch zu extrahieren. 

29. Computersystem nach einem der Anspruche 25 bis 

28, bei dem das Detektieren von Ergebnisrahmen in 
neuen Suchantwortdarstellungen umfafit, dafi in Such- 
antworten, die mehr als einen Ergebnisrahmen enthal- 
ten, diejenigen Teile der Suchantwort, die ein ahnliches 
Aussehen haben, identifiziert werden. 

30. Computerprogramm-Produkt, umfassend einen 
Programmcode, zum Durchfiihren eines Verfahrens, 
das, wenn auf einem Computersystem ausgefuhrt, dem 
Konfigurieren einer Schnittstelle zu mindestens einer 
Primarsuchmaschine dient, um Suchergebnisse aus ei- 
ner Suchantwort einer Primarsuchmaschine in einer 
Suchantwortdarstellung zu extrahieren, wobei das Ver- 
fahren ein automatisches Anpassen der Schnittstelle an 
eine neue Suchantwortdarstellung umfaBt. 

31. Computerprogramm-Produkt nach Anspruch 30, 
bei dem der Programmcode auf einem computer lesba- 
ren Datentrager gespeichert ist oder in Form von Si- 
gnalen uber ein Computemetzwerk iibertragen wird. 

32. Computerprogramm-Produkt nach Anspruch 30 
Oder 31, bei dem das Anpassen der Schnittstelle das 
Detektieren von Ergebnisrahmen in neuen Suchant- 
wortdarstellungen umfaBt, wobei in Suchantworten, 
die mehr als ein Ergebnisrahmen enthalten, diejenigen 
Tfeile der Suchantwort, die ein ahnliches Aussehen ha- 
ben, identifiziert werden. 

33. Computerprogramm-Produkt nach einem der An- 
spriiche 30 bis 32, bei dem eine Programmkomponente 
zum Konfigurieren der Schnittstelle automatisch neue 
Suchantwortdarstellungen ericeimt und diese Darstel- 
lungen speichert, wahrend eine andere Programmkom- 
ponente die gespeicherten Darstellungen verwendet, 
um bekannte Suchantwortdarstellimgen zu verarfodten. 

34. Computerprogramm-Produkt nach einem der An- 
spriiche 30 bis 33, bei dem die Programmkomponente, 
die neue Suchantwortdarstellungen erkennt, umfaBt, 
daB die Bedeutung der Tfeile des Ergebnisrahmens au- 
tomatisch bestimmt und die zugehorigen Suchergeb- 
nisinformationen zugeordnet werden. 

35. Computerprogramm-Produkt mit einem oder meh- 
leren Merkmalen einer der vorhergehenden Ansprii- 
che. 
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